來到了這個系列的最後一篇,除了這個主題之外還會有我個人的一些心得~
這其實是一門博大精深的學問,整個過程會包含像是定義問題、確認需要哪些資料、搜集資料、清理資料、進行分析、然後可能還會發現分析出來的結果好像有點怪怪的,再回去看看是不是收進來的資料有點問題、或是還有哪些面向其實需要被考量到。
一直到前面這些都完成了,最後一步,才是將分析結果進行視覺化,找出最適合的方式進行呈現。
所以,關於前面的一堆步驟,也是很值得去鑽研的部分。網路上其實也有很多資料科學的相關課程可以自行去探索。
或是,想要在一頭栽進去之前有更多了解的話,我覺得這篇 揭開資料科學的神秘面紗 寫得還蠻不錯的,大家也可以參考看看。
當然,就這 30 天的主題「為資料選擇適合的視覺化方式」,其實也只是資料視覺化的其中一部份,甚至還很偏重在靜態圖表類型的視覺化方式。
關於資料視覺化這部分,這兩天我也有找到 IBM 也有整理出一個還蠻嚴謹的流程,大致分為以下幾個步驟 (看起來和軟體開發的過程蠻像的XD),有興趣的話也可以自行閱讀 這篇文章。
除了一些線上課程之外,我覺得實際找點資料來玩玩、試著自己操作看看也是很重要的,而這篇 資料科學網站大補帖 其實也還整理的蠻詳細的,如果還有哪些是大家覺得漏掉需要再補上的,也都可以讓我知道。
另外也推薦一些我有在看、也還算是蠻常更新的 blog。
最後當然是先來回顧一下前面這 29 天到底寫了哪些東西。
大概就是終於完賽了吧XD
其實一開始也是無意間看到這個鐵人賽,想說好像可以來挑戰看看,然後大概想了兩天訂了主題、稍微擬一下大綱就衝了。當然這個一開始就是計畫外的活動,真的加入計畫之後當然也會遇到各種的計畫趕不上變化,例如中間又不小心被加了個讀書會、還有重感冒好幾天,以及原本就安排好的線上課程進度等等... 這時候才覺得每天下班後都還要固定逼自己都有產出,其實真的是蠻有挑戰的一件事。
不過剛好也是工作上會需要接觸到資料,並且要用工具來進行呈現,所以也想說雖然在這方面還是個新手,但也趁這個機會讓自己在這部分能夠更進步。以結果來說,這 30 天也算是有很大的收穫吧。